如果通常激励有能力的AI代理来寻求为我们指定的目标服务的权力,那么除了巨大的利益外,这些系统还将带来巨大的风险。在完全可观察到的环境中,大多数奖励功能都具有最佳的政策,该政策通过保持期权开放并保持活力来寻求权力。但是,现实世界既不是完全可观察到的,也不是代理人绝对最佳的。我们考虑了一系列的AI决策模型,从最佳,随机到通过学习和与环境互动所告知的选择。我们发现许多决策功能都是可以重新定位的,并且可重新定位的性足以引起寻求权力的趋势。我们的功能标准简单而广泛。我们表明,一系列定性决策程序激励代理寻求权力。我们通过在蒙特祖玛的报仇中推理了学到的政策激励措施来证明结果的灵活性。这些结果表明安全风险:最终,高度可重新定位的培训程序可能会训练寻求对人类权力的现实世界代理商。
translated by 谷歌翻译
我们不知道如何将非常聪明的AI代理人的行为与人类的利益保持一致。我调查 - 没有解决这个AI对齐问题的完整解决方案 - 我们可以建立对世界影响有限的智能AI代理,并且不会自主寻求权力。在本文中,我介绍了可实现的实用程序保存(AUP)方法。我证明,AUP在玩具网格世界内部以及基于Conway的生活游戏中的复杂环境中产生保守的,保存期权的行为。我正式化了避免副作用的问题,该问题提供了一种量化代理商对世界的副作用的方法。我还对AI代理的背景下的寻求权力进行了正式定义,并表明最佳政策倾向于寻求权力。特别是,大多数奖励功能具有避免失活的最佳政策。如果我们要在部署后停用或纠正智能代理,这是一个问题。我的定理表明,由于大多数代理目标与我们的目标冲突,因此代理人可能会抗拒更正。我扩展了这些定理,以表明寻求权力的激励措施不仅是针对最佳决策者,而且是在广泛的决策程序下发生的。
translated by 谷歌翻译
AI目标通常很难正确指定。有些方法通过规范AI的副作用来解决此问题:代理必须用不完美的代理目标来权衡“他们造成了多少混乱”。我们通过援助游戏框架提出了一个正式的副作用正规化标准。在这些游戏中,代理解决了一个可观察到的马尔可夫决策过程(POMDP),代表了其对其应优化目标函数的不确定性。我们考虑在以后的时间步骤向代理揭示真正目标的设置。我们证明,通过将代理人奖励与代理商实现一系列未来任务的能力进行交易,可以解决此POMDP。我们通过在两个环境环境中的地面真相评估来证明问题形式化的合理性。
translated by 谷歌翻译
一些研究人员推测智能强化学习(RL)代理商将被激励寻求资源和追求目标的权力。其他研究人员指出,RL代理商不需要具有人类的寻求技能本能。为了澄清这一讨论,我们开展了最优政策统计趋势的第一个正式理论。在马尔可夫决策过程的背景下,我们证明某些环境对称是足以实现对环境寻求权力的最佳政策。这些对称存在于许多环境中,其中代理可以关闭或销毁。我们证明,在这些环境中,大多数奖励功能使其通过保持一系列可用的选项来寻求电力,并在最大限度地提高平均奖励时,通过导航到更大的潜在终端状态。
translated by 谷歌翻译
We address the problem of unsupervised domain adaptation when the source domain differs from the target domain because of a shift in the distribution of a latent subgroup. When this subgroup confounds all observed data, neither covariate shift nor label shift assumptions apply. We show that the optimal target predictor can be non-parametrically identified with the help of concept and proxy variables available only in the source domain, and unlabeled data from the target. The identification results are constructive, immediately suggesting an algorithm for estimating the optimal predictor in the target. For continuous observations, when this algorithm becomes impractical, we propose a latent variable model specific to the data generation process at hand. We show how the approach degrades as the size of the shift changes, and verify that it outperforms both covariate and label shift adjustment.
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
We present the Habitat-Matterport 3D Semantics (HM3DSEM) dataset. HM3DSEM is the largest dataset of 3D real-world spaces with densely annotated semantics that is currently available to the academic community. It consists of 142,646 object instance annotations across 216 3D spaces and 3,100 rooms within those spaces. The scale, quality, and diversity of object annotations far exceed those of prior datasets. A key difference setting apart HM3DSEM from other datasets is the use of texture information to annotate pixel-accurate object boundaries. We demonstrate the effectiveness of HM3DSEM dataset for the Object Goal Navigation task using different methods. Policies trained using HM3DSEM perform outperform those trained on prior datasets. Introduction of HM3DSEM in the Habitat ObjectNav Challenge lead to an increase in participation from 400 submissions in 2021 to 1022 submissions in 2022.
translated by 谷歌翻译
给定尺寸$ d $中的独立标准高斯点$ v_1,\ ldots,v_n $,对于$(n,d)$的值(n,d)$的值很高,概率很高,同时通过所有要点?将椭圆形拟合到随机点的基本问题与低级别矩阵分解,独立的组件分析和主成分分析有连接。基于有力的数值证据,桑德森,帕里洛和威尔斯基[Proc。关于决策和控制会议,第6031-6036页,2013年]猜想,椭圆形拟合问题的问题从可行的到不可行的$ n $增加,并在$ n \ sim d^2/4处急剧阈值$。我们通过为某些$ n = \ omega(\,d^2/\ log^5(d)\,)$构建合适的椭圆形来解决这个猜想,从而改善了Ghosh等人的先前工作。 [Proc。关于计算机科学基础的研讨会,第954-965、2020页],需要$ n = o(d^{3/2})$。我们的证明证明了Saunderson等人的最小二乘结构的可行性。使用对特定非标准随机矩阵的特征向量和特征值进行仔细的分析。
translated by 谷歌翻译
近年来,人类面孔的影子化化身已经走了很长一段路,但是该地区的研究受到缺乏公开可用的高质量数据集的限制。在这项工作中,我们介绍了Multiface,这是一种新的多视图,高分辨率的人脸数据集,该数据集是从13个身份的神经面部渲染研究中收集的13个身份。我们介绍了Mugsy,这是一种大型多摄像机设备,可捕获面部表现的高分辨率同步视频。 Multiface的目的是缩小学术界高质量数据的可访问性的差距,并使VR触觉研究能够进行研究。随着数据集的释放,我们对不同模型体系结构对模型的新观点和表达式的插值能力进行消融研究。通过有条件的VAE模型作为我们的基线,我们发现添加空间偏见,纹理翘曲场和残差连接可改善新型视图合成的性能。我们的代码和数据可在以下网址获得:https://github.com/facebookresearch/multiface
translated by 谷歌翻译
我们开发用于测试两个或多个数据流是否来自同一源的电子变量,更普遍地说,源之间的差异是否大于某些最小效应大小。这些电子变量导致精确的非肌电测试,这些测试仍然是安全的,即在柔性采样场景(例如可选的停止和延续)下,保持其类型错误保证。在特殊情况下,我们的电子变量在替代方面也具有最佳的“增长”特性。虽然构造是通用的,但我们通过K x 2应急表的特殊情况进行了说明,我们还允许在复合替代方案上纳入不同的限制。与模拟中的p值分析和现实世界中的p值分析进行比较,表明电子变量通过其灵活性,通常允许早日停止数据收集,从而保留与经典方法相似的功率,同时还保留了扩展或结合的选项之后数据。
translated by 谷歌翻译